{"type":"getPostByPath","data":{"title":"矩阵求导","date":"2024-05-09T15:26:30.000Z","description":"","categories":[],"tags":[],"content":"
在一个多月前,针对有同学关于矩阵求导中分子布局、分母布局两者的区别的疑问,我写了如下的这篇答案。
\n虽然这篇答案给出了几个结论,但是写的没有很严谨,并没有说明矩阵求导的本质与分子布局、分母布局的本质。
\n所以,在接下来这篇文章中,我将更严谨地说明矩阵求导的本质与分子布局、分母布局的本质。希望对初学的同学、想理解本质的同学提供一些帮助。
\n注 1:看懂本文只需了解本科阶段高等数学的偏导如何求、本科阶段线性代数的矩阵 * 的定义,无需任何其他知识。*
\n注 2:本文若无特殊说明,则约定向量均为 * 列向量,* 如
注 3:本文仅考虑实数,不考虑复数。**
\n考虑一个函数
\n针对
1、
我们称
1.1
我们称
例 1:
\n1.2
我们称
** 例 2:** 设
$$f(\\pmb{x})=a_1x_12+a_2x_22+a_3x_3^2+a_4x_1x_2 (e.g.2)$$
\n1.3
我们称
** 例 3:** 设 $\\pmb {X}{3\\times 2}=(x{ij})_{i=1,j=1}^{3,2}$
\n$$f(\\pmb{X})=a_1x_{11}2+a_2x_{12}2+a_3x_{21}2+a_4x_{22}2+a_5x_{31}2+a_6x_{32}2 (e.g.3)$$
\n2、
我们称
含义:
同样地,变元分三种:标量、向量、矩阵。这里的符号仍与上面相同。
\n2.1 标量变元
\n例 4:
\n2.2 向量变元
\n** 例 5:** 设
$$\\pmb{f}{3\\times1}(\\pmb{x})=
2.3 矩阵变元
\n** 例 6:** 设 $\\pmb {X}{3\\times 2}=(x{ij})_{i=1,j=1}^{3,2}$
\n$$\\pmb{f}{3\\times1}(\\pmb{X})=
3、
我们称
含义:
同样地,变元分三种:标量、向量、矩阵。这里的符号仍与上面相同。
\n3.1 标量变元
\n例 7:
\n$$\\pmb{F}{3\\times2}(x)= \\begin{bmatrix} f{11}(x) & f_{12}(x)\\ f_{21}(x) & f_{22}(x)\\ f_{31}(x) & f_{32}(x)\\ \\end{bmatrix} =
3.2 向量变元
\n** 例 8:** 设
$$\\pmb{F}{3\\times2}(\\pmb{x})= \\begin{bmatrix} f{11}(\\pmb{x}) & f_{12}(\\pmb{x})\\ f_{21}(\\pmb{x}) & f_{22}(\\pmb{x})\\ f_{31}(\\pmb{x}) & f_{32}(\\pmb{x})\\ \\end{bmatrix} =
3.3 矩阵变元
\n** 例 9:** 设 $\\pmb {X}{3\\times 2}=(x{ij})_{i=1,j=1}^{3,2}$
\n$$ \\pmb{F}{3\\times2}(\\pmb{X})= \\begin{bmatrix} f{11}(\\pmb{X}) & f_{12}(\\pmb{X})\\ f_{21}(\\pmb{X}) & f_{22}(\\pmb{X})\\ f_{31}(\\pmb{X}) & f_{32}(\\pmb{X})\\ \\end{bmatrix}=
4、总结
\n
函数与标量、向量、矩阵
\n我们在高等数学 [2] 中学过,对于一个多元函数
\n例 10:
\n我们可以将 f 对
矩阵求导也是一样的,本质就是
对于 (e.g.10) ,我们把得出的 3 个结果写成列向量形式:
\n一个矩阵求导以列向量形式展开的雏形就出现了。
\n当然我们也可以以行向量形式展开:
\n所以,如果
这就是矩阵求导的本质。
\n至于这
不严谨地说,从直观上看:
\n分子布局,就是分子是列向量形式,分母是行向量形式,如 (2) 式。如果这里的
$$\\frac{\\partial \\pmb{f}{2\\times1}(\\pmb{x})}{\\partial \\pmb{x}^T{3\\times1}}=
分母布局,就是分母是列向量形式,分子是行向量形式,如 (1) 式。如果这里的
$$\\frac{\\partial \\pmb{f}^T_{2\\times1}(\\pmb{x})}{\\partial \\pmb{x}{3\\times1}}=
直观上理解了之后,我们针对不同类型的
1、向量变元的实值标量函数
1.1 行向量偏导形式(又称行偏导向量形式)[3]
\n1.2 梯度向量形式(又称列向量偏导形式、列偏导向量形式)[4]
\n这两种形式互为转置。
\n2、矩阵变元的实值标量函数 $f (\\pmb {X}) , \\pmb {X}{m\\times n}=(x{ij})_{i=1,j=1}^{m,n}$
\n先介绍一个符号
解释一下,
2.1 行向量偏导形式(又称行偏导向量形式)[3:1]
\n即先把矩阵变元
$$\\text{D}{\\text{vec}\\pmb{X}}f(\\pmb{X})= \\frac{\\partial f(\\pmb{X})}{\\partial \\text{vec}^T(\\pmb{X})} = [ \\frac{\\partial f}{\\partial x{11}},\\frac{\\partial f}{\\partial x_{21}},\\cdots,\\frac{\\partial f}{\\partial x_{m1}},\\frac{\\partial f}{\\partial x_{12}},\\frac{\\partial f}{\\partial x_{22}},\\cdots,\\frac{\\partial f}{\\partial x_{m2}},\\cdots,\\frac{\\partial f} {\\partial x_{1n}},\\frac{\\partial f}{\\partial x_{2n}},\\cdots,\\frac{\\partial f}{\\partial x_{mn}} ] (8)$$
\n2.2
即先把矩阵变元
$$\\text{D}{\\pmb{X}}f(\\pmb{X})= \\frac{\\partial f(\\pmb{X})}{\\partial \\pmb{X}^T{m\\times n}}=
2.3 梯度向量形式(又称列向量偏导形式、列偏导向量形式)[4:1]
\n即先把矩阵变元
2.4 梯度矩阵形式 [4:2]
\n直接对原矩阵变元
$$\\nabla_{\\pmb{X}}f(\\pmb{X})= \\frac{\\partial f(\\pmb{X})}{\\partial \\pmb{X}{m\\times n}} = \\begin{bmatrix} \\frac{\\partial f}{\\partial x{11}}&\\frac{\\partial f}{\\partial x_{12}}&\\cdots&\\frac{\\partial f}{\\partial x_{1n}} \\ \\frac{\\partial f}{\\partial x_{21}}&\\frac{\\partial f}{\\partial x_{22}}& \\cdots & \\frac{\\partial f}{\\partial x_{2n}}\\ \\vdots&\\vdots&\\vdots&\\vdots\\ \\frac{\\partial f} {\\partial x_{m1}}&\\frac{\\partial f}{\\partial x_{m2}}&\\cdots&\\frac{\\partial f}{\\partial x_{mn}} \\end{bmatrix}_{m\\times n} \\ (11)$$
\n2.5 一些发现
\n2.5.1 转置
\n(8) 式与 (10) 式互为转置; (9) 式与 (11) 式互为转置。
\n2.5.2 相等
\n当矩阵变元
这一发现说明,对于向量变元的实值标量函数
3、矩阵变元的实矩阵函数 $\\pmb {F}(\\pmb {X}) , \\pmb {X}{m\\times n}=(x{ij}){i=1,j=1}^{m,n}, \\pmb{F}{p\\times q}=(f_{ij})_{i=1,j=1}^{p,q}$
\n3.1
即先把矩阵变元
再把实矩阵函数
这样,我们就把一个矩阵变元的实矩阵函数
$$\\text{D}{\\pmb{X}}\\pmb{F}(\\pmb{X}) =\\frac{\\partial \\text{vec}{pq\\times 1}(\\pmb{F}{}(\\pmb{X}))}{\\partial \\text{vec}^T{mn\\times 1}\\pmb{X}} =
3.2 梯度矩阵形式 [6]
\n即先把矩阵变元
再把实矩阵函数
这样,我们就把一个矩阵变元的实矩阵函数
$$\\nabla_{\\pmb{X}}\\pmb{F}(\\pmb{X}) =\\frac{\\partial \\text{vec}{pq\\times 1}^T(\\pmb{F}{}(\\pmb{X}))}{\\partial \\text{vec}{mn\\times 1}\\pmb{X}} = \\begin{bmatrix} \\frac{\\partial f{11}}{\\partial x_{11}}&\\frac{\\partial f_{21}}{\\partial x_{11}}&\\cdots&\\frac{\\partial f_{p1}}{\\partial x_{11}}&\\frac{\\partial f_{12}}{\\partial x_{11}}&\\frac{\\partial f_{22}}{\\partial x_{11}}&\\cdots&\\frac{\\partial f_{p2}}{\\partial x_{11}}&\\cdots&\\frac{\\partial f_{1q}}{\\partial x_{11}}&\\frac{\\partial f_{2q}}{\\partial x_{11}}&\\cdots&\\frac{\\partial f_{pq}}{\\partial x_{11}}\\ \\frac{\\partial f_{11}}{\\partial x_{21}}&\\frac{\\partial f_{21}}{\\partial x_{21}}&\\cdots&\\frac{\\partial f_{p1}}{\\partial x_{21}}&\\frac{\\partial f_{12}}{\\partial x_{21}}&\\frac{\\partial f_{22}}{\\partial x_{21}}&\\cdots&\\frac{\\partial f_{p2}}{\\partial x_{21}}&\\cdots&\\frac{\\partial f_{1q}}{\\partial x_{21}}&\\frac{\\partial f_{2q}}{\\partial x_{21}}&\\cdots&\\frac{\\partial f_{pq}}{\\partial x_{21}}\\ \\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots\\ \\frac{\\partial f_{11}}{\\partial x_{m1}}&\\frac{\\partial f_{21}}{\\partial x_{m1}}&\\cdots&\\frac{\\partial f_{p1}}{\\partial x_{m1}}&\\frac{\\partial f_{12}}{\\partial x_{m1}}&\\frac{\\partial f_{22}}{\\partial x_{m1}}&\\cdots&\\frac{\\partial f_{p2}}{\\partial x_{m1}}&\\cdots&\\frac{\\partial f_{1q}}{\\partial x_{m1}}&\\frac{\\partial f_{2q}}{\\partial x_{m1}}&\\cdots&\\frac{\\partial f_{pq}}{\\partial x_{m1}}\\ \\frac{\\partial f_{11}}{\\partial x_{12}}&\\frac{\\partial f_{21}}{\\partial x_{12}}&\\cdots&\\frac{\\partial f_{p1}}{\\partial x_{12}}&\\frac{\\partial f_{12}}{\\partial x_{12}}&\\frac{\\partial f_{22}}{\\partial x_{12}}&\\cdots&\\frac{\\partial f_{p2}}{\\partial x_{12}}&\\cdots&\\frac{\\partial f_{1q}}{\\partial x_{12}}&\\frac{\\partial f_{2q}}{\\partial x_{12}}&\\cdots&\\frac{\\partial f_{pq}}{\\partial x_{12}}\\ \\frac{\\partial f_{11}}{\\partial x_{22}}&\\frac{\\partial f_{21}}{\\partial x_{22}}&\\cdots&\\frac{\\partial f_{p1}}{\\partial x_{22}}&\\frac{\\partial f_{12}}{\\partial x_{22}}&\\frac{\\partial f_{22}}{\\partial x_{22}}&\\cdots&\\frac{\\partial f_{p2}}{\\partial x_{22}}&\\cdots&\\frac{\\partial f_{1q}}{\\partial x_{22}}&\\frac{\\partial f_{2q}}{\\partial x_{22}}&\\cdots&\\frac{\\partial f_{pq}}{\\partial x_{22}}\\ \\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots\\ \\frac{\\partial f_{11}}{\\partial x_{m2}}&\\frac{\\partial f_{21}}{\\partial x_{m2}}&\\cdots&\\frac{\\partial f_{p1}}{\\partial x_{m2}}&\\frac{\\partial f_{12}}{\\partial x_{m2}}&\\frac{\\partial f_{22}}{\\partial x_{m2}}&\\cdots&\\frac{\\partial f_{p2}}{\\partial x_{m2}}&\\cdots&\\frac{\\partial f_{1q}}{\\partial x_{m2}}&\\frac{\\partial f_{2q}}{\\partial x_{m2}}&\\cdots&\\frac{\\partial f_{pq}}{\\partial x_{m2}}\\ \\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots\\ \\frac{\\partial f_{11}}{\\partial x_{1n}}&\\frac{\\partial f_{21}}{\\partial x_{1n}}&\\cdots&\\frac{\\partial f_{p1}}{\\partial x_{1n}}&\\frac{\\partial f_{12}}{\\partial x_{1n}}&\\frac{\\partial f_{22}}{\\partial x_{1n}}&\\cdots&\\frac{\\partial f_{p2}}{\\partial x_{1n}}&\\cdots&\\frac{\\partial f_{1q}}{\\partial x_{1n}}&\\frac{\\partial f_{2q}}{\\partial x_{1n}}&\\cdots&\\frac{\\partial f_{pq}}{\\partial x_{1n}}\\ \\frac{\\partial f_{11}}{\\partial x_{2n}}&\\frac{\\partial f_{21}}{\\partial x_{2n}}&\\cdots&\\frac{\\partial f_{p1}}{\\partial x_{2n}}&\\frac{\\partial f_{12}}{\\partial x_{2n}}&\\frac{\\partial f_{22}}{\\partial x_{2n}}&\\cdots&\\frac{\\partial f_{p2}}{\\partial x_{2n}}&\\cdots&\\frac{\\partial f_{1q}}{\\partial x_{2n}}&\\frac{\\partial f_{2q}}{\\partial x_{2n}}&\\cdots&\\frac{\\partial f_{pq}}{\\partial x_{2n}}\\ \\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots&\\vdots\\ \\frac{\\partial f_{11}}{\\partial x_{mn}}&\\frac{\\partial f_{21}}{\\partial x_{mn}}&\\cdots&\\frac{\\partial f_{p1}}{\\partial x_{mn}}&\\frac{\\partial f_{12}}{\\partial x_{mn}}&\\frac{\\partial f_{22}}{\\partial x_{mn}}&\\cdots&\\frac{\\partial f_{p2}}{\\partial x_{mn}}&\\cdots&\\frac{\\partial f_{1q}}{\\partial x_{mn}}&\\frac{\\partial f_{2q}}{\\partial x_{mn}}&\\cdots&\\frac{\\partial f_{pq}}{\\partial x_{mn}}\\ \\end{bmatrix}_{mn \\times pq} \\ (14)$$
\n3.3 一些发现
\n3.3.1 转置
\n(13) 式与 (14) 式互为转置。
\n3.3.2 相等 1
\n当实矩阵函数
这一发现说明,对于矩阵变元的实值标量函数 $f (\\pmb {X}) , \\pmb {X}{m\\times n}=(x{ij})_{i=1,j=1}^{m,n}
3.3.3 相等 2
\n当矩阵变元
这一发现仍说明,对于向量变元的实值标量函数
4、矩阵变元的实向量函数
这三个都可以看做是矩阵变元的实矩阵函数
看到这里,相信同学们对矩阵求导结果的布局有了很全面的了解了,无非就是分子的转置、向量化,分母的转置、向量化,它们的各种组合而已。
\n结合上述知识,我们总结:
\n1、分子布局的本质:分子是标量、列向量、矩阵向量化后的列向量;分母是标量、列向量转置后的行向量、矩阵的转置矩阵、矩阵向量化后的列向量转置后的行向量。包含 (5) 式、 (8) 式、 (9) 式、 (13) 式。
\n2、分母布局的本质:分子是标量、列向量转置后的行向量、矩阵向量化后的列向量转置后的行向量;分母是标量、列向量、矩阵自己、矩阵向量化后的列向量。包含 (6) 式、 (10) 式、 (11) 式、 (14) 式。
\n思考一下,其实我们可以再简洁一些:谁转置了,就是另一方的布局。分子转置了,就是分母布局;分母转置了,就是分子布局。
\n最终,我们列一个表格,总结分子布局、分子布局的本质:
\n
分子布局、分母布局的本质
\n本文到这里就结束了,希望对大家有帮助。如果有时间的话,后面我会再发一篇文章,来进行 ** 若干常见矩阵求导公式的数学推导。** 欢迎大家点赞、关注、收藏、转发噢~
\n矩阵求导系列其他文章:
\n对称矩阵的求导,以多元正态分布的极大似然估计为例(矩阵求导 —— 补充篇) - Iterator 的文章 - 知乎
\n矩阵求导公式的数学推导(矩阵求导 —— 进阶篇) - Iterator 的文章 - 知乎
\n矩阵求导公式的数学推导(矩阵求导 —— 基础篇) - Iterator 的文章 - 知乎
\n1、看本文之前请务必先看这篇文章:
\n下文以 \"本质篇\" 指代上面这篇文章。
\n2、本文介绍向量变元的实值标量函数、矩阵变元的实值标量函数中最基础的矩阵求导公式的数学推导。掌握了这些最基础的推导,才能理解之后的那些千变万化的技巧。
\n3、进阶的技巧(矩阵的迹
4、本文使用的符号与本质篇相同。
\n5、看懂本文需要了解本质篇所提及的知识,以及了解本科阶段线性代数中矩阵乘法、向量内积的知识 **,无需任何其他知识。**
\n**6、** 有一个矩阵求导的网站,大家可以验证自己算的结果是否正确。
\n我们使用梯度向量形式,即 (本质篇_6) 式
\n1、四个法则
\n1.1 常数求导 [1:1]:
\n与一元函数常数求导相同:结果为零向量
\n其中, c 为常数。
\n证明:
\n证毕。
\n1.2 线性法则 [1:2]
\n与一元函数求导线性法则相同:相加再求导等于求导再相加,常数提外面
\n其中,
证明:
\n证毕。
\n1.3 乘积法则 [1]
\n与一元函数求导乘积法则相同:前导后不导 加 前不导后导
\n证明:
\n证毕。
\n1.4 商法则 [1]
\n与一元函数求导商法则相同:(上导下不导 减 上不导下导)除以(下的平方):
\n其中,
证明:
\n证毕。
\n2、几个公式
\n2.1
\n其中,
证明:
\n证毕。
\n2.2
\n证明:
\n$$\\frac{\\partial( \\pmb{x}^T \\pmb{x})}{\\partial{\\pmb{x}}} = \\frac{\\partial( x_12+x_22+\\cdots+x_n^2)}{\\partial{\\pmb{x}}} = \\begin{bmatrix} \\frac{\\partial( x_12+x_22+\\cdots+x_n^2)}{\\partial{x_1}} \\ \\frac{\\partial( x_12+x_22+\\cdots+x_n^2)}{\\partial{x_2}} \\ \\vdots \\ \\frac{\\partial( x_12+x_22+\\cdots+x_n^2)}{\\partial{x_n}} \\end{bmatrix} =
证毕。
\n2.3
\n其中, $\\pmb {A}{n \\times n} 是常数矩阵, \\pmb {A}{n \\times n}=(a_{ij})_{i=1,j=1}^{n,n}$ 。
\n证明:
\n证毕。
\n2.4
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{x}\\pmb{x}T\\pmb{b})}{\\partial{\\pmb{x}}} = \\pmb{a}\\pmb{b}T\\pmb{x}+\\pmb{b}\\pmb{a}T\\pmb{x} (15)$$
\n其中,
证明:
\n因为 $\\pmb {a}T\\pmb{x}=\\pmb{x}T\\pmb{a},\\pmb{x}T\\pmb{b}=\\pmb{b}T\\pmb {x}$ ,所以有
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{x}\\pmb{x}T\\pmb{b})}{\\partial{\\pmb{x}}} = \\frac{\\partial( \\pmb{x}T\\pmb{a}\\pmb{b}T\\pmb{x})}{\\partial{\\pmb{x}}} (16)$$
\n又因为
$$\\frac{\\partial( \\pmb{a}T\\pmb{x}\\pmb{x}T\\pmb{b})}{\\partial{\\pmb{x}}} = \\frac{\\partial( \\pmb{x}T\\pmb{a}\\pmb{b}T\\pmb{x})}{\\partial{\\pmb{x}}}=\\pmb{a}\\pmb{b}T\\pmb{x}+\\pmb{b}\\pmb{a}T\\pmb{x} (17)$$
\n证毕。
\n$$f(\\pmb{X}),\\pmb{X}{m\\times n}=(x{ij})_{i=1,j=1}^{m,n} $$
\n我们使用梯度矩阵形式,即 (本质篇_11) 式
\n$$\\nabla_{\\pmb{X}}f(\\pmb{X})= \\frac{\\partial f(\\pmb{X})}{\\partial \\pmb{X}{m\\times n}} = \\begin{bmatrix} \\frac{\\partial f}{\\partial x{11}}&\\frac {\\partial f}{\\partial x_{12}}&\\cdots&\\frac {\\partial f}{\\partial x_{1n}} \\ \\frac {\\partial f}{\\partial x_{21}}&\\frac {\\partial f}{\\partial x_{22}}& \\cdots & \\frac {\\partial f}{\\partial x_{2n}}\\ \\vdots&\\vdots&\\vdots&\\vdots\\ \\frac {\\partial f} {\\partial x_{m1}}&\\frac {\\partial f}{\\partial x_{m2}}&\\cdots&\\frac {\\partial f}{\\partial x_{mn}} \\end {bmatrix}_{m\\times n} \\ (本质篇_11)$$
\n1、四个法则
\n1.1 常数求导 [1:3]:
\n与一元函数常数求导相同:结果为零矩阵
\n其中, c 为常数。
\n证明:
\n$$\\frac{\\partial{c}}{\\partial{\\pmb{X}}} =
证毕。
\n1.2 线性法则 [1:4]
\n与一元函数求导线性法则相同:相加再求导等于求导再相加,常数提外面
\n其中,
证明:
\n证毕。
\n1.3 乘积法则 [1]
\n与一元函数求导乘积法则相同:前导后不导 加 前不导后导
\n证明:
\n证毕。
\n1.4 商法则 [1]
\n与一元函数求导商法则相同:(上导下不导 减 上不导下导)除以(下的平方):
\n其中,
证明:
\n证毕。
\n2、几个公式
\n2.1
\n其中, $\\pmb {a}{m \\times 1},\\pmb{b}{n \\times 1} 为常数向量,\\pmb {a}_=(a_1,a_2,\\cdots,a_m)T,\\pmb{b}=(b_1,b_2,\\cdots,b_n)T$。
\n证明(右击公式,选择在新标签页中打开图片,公式就可以放大了~):
\n$$\\frac{\\partial( \\pmb{a}^T\\pmb{X}\\pmb{b})}{\\partial{\\pmb{X}}} = \\frac{\\partial(a_1b_1x_{11}+a_1b_2x_{12}+\\cdots+a_1b_nx_{1n} \\ +a_2b_1x_{21}+a_2b_2x_{22}+\\cdots+a_2b_nx_{2n}\\ +\\cdots \\ +a_mb_1x_{m1}+a_mb_2x_{m2}+\\cdots+a_mb_nx_{mn})}{\\partial{\\pmb{X}}} =
证毕。
\n2.2
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{X}T\\pmb{b})}{\\partial{\\pmb{X}}} = \\pmb{b}\\pmb{a}^T (28)$$
\n其中, $\\pmb {a}{n \\times 1},\\pmb{b}{m \\times 1} 为常数向量,\\pmb {a}_=(a_1,a_2,\\cdots,a_n)T,\\pmb{b}=(b_1,b_2,\\cdots,b_m)T$。
\n证明:
\n因为标量的转置等于标量自己,所以有
\n$$\\frac{\\partial(\\pmb{a}T\\pmb{X}T\\pmb{b})}{\\partial\\pmb{X}}=\\frac{\\partial(\\pmb{a}T\\pmb{X}T\\pmb{b})T}{\\partial\\pmb{X}}=\\frac{\\partial(\\pmb{b}T\\pmb{X}\\pmb{a})}{\\partial\\pmb{X}} (29)$$
\n由 (26) 式得:
\n$$\\frac{\\partial(\\pmb{a}T\\pmb{X}T\\pmb{b})}{\\partial\\pmb{X}}=\\frac{\\partial(\\pmb{b}^T\\pmb{X}\\pmb{a})}{\\partial\\pmb{X}} = \\pmb{b}\\pmb{a}^T (30)$$
\n证毕。
\n2.3
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b})}{\\partial{\\pmb{X}}} = \\pmb{a}\\pmb{b}T\\pmb{X}+\\pmb{b}\\pmb{a}T\\pmb{X} (31)$$
\n其中, $\\pmb {a}{m \\times 1},\\pmb{b}{m \\times 1} 为常数向量,\\pmb {a}_=(a_1,a_2,\\cdots,a_m)T,\\pmb{b}=(b_1,b_2,\\cdots,b_m)T$。
\n证明(右击公式,选择在新标签页中打开图片,公式就可以放大了~):
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b})}{\\partial{\\pmb{X}}} = \\frac{\\partial( [(a_1b_1)(x_{11}x_{11}+x_{12}x_{12}+\\cdots+x_{1n}x_{1n})]+[(a_1b_2)(x_{11}x_{21}+x_{12}x_{22}+\\cdots+x_{1n}x_{2n})]+\\cdots+[(a_1b_m)(x_{11}x_{m1}+x_{12}x_{m2}+\\cdots+x_{1n}x_{mn})] \\ +[(a_2b_1)(x_{21}x_{11}+x_{22}x_{12}+\\cdots+x_{2n}x_{1n})]+[(a_2b_2)(x_{21}x_{21}+x_{22}x_{22}+\\cdots+x_{2n}x_{2n})]+\\cdots+[(a_2b_m)(x_{21}x_{m1}+x_{22}x_{m2}+\\cdots+x_{2n}x_{mn})] \\ +\\cdots \\ +[(a_mb_1)(x_{m1}x_{11}+x_{m2}x_{12}+\\cdots+x_{mn}x_{1n})]+[(a_mb_2)(x_{m1}x_{21}+x_{m2}x_{22}+\\cdots+x_{mn}x_{2n})]+\\cdots+[(a_mb_m)(x_{m1}x_{m1}+x_{m2}x_{m2}+\\cdots+x_{mn}x_{mn})] )}{\\partial{\\pmb{X}}} \\=
证毕。
\n2.4
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{X}T\\pmb{X}\\pmb{b})}{\\partial{\\pmb{X}}} = \\pmb{X}\\pmb{b}\\pmb{a}T+\\pmb{X}\\pmb{a}\\pmb{b}T (33)$$
\n其中, $\\pmb {a}{n \\times 1},\\pmb{b}{n \\times 1} 为常数向量,\\pmb {a}_=(a_1,a_2,\\cdots,a_n)T,\\pmb{b}=(b_1,b_2,\\cdots,b_n)T$。
\n证明:
\n我们来看一下 (本质篇_9) 式:
\n$$\\text{D}{\\pmb{X}}f(\\pmb{X})= \\frac{\\partial f(\\pmb{X})}{\\partial \\pmb{X}^T{m\\times n}} =
再来看一下 (本质篇_11) 式:
\n$$\\nabla_{\\pmb{X}}f(\\pmb{X})= \\frac{\\partial f(\\pmb{X})}{\\partial \\pmb{X}{m\\times n}} = \\begin{bmatrix} \\frac{\\partial f}{\\partial x{11}}&\\frac {\\partial f}{\\partial x_{12}}&\\cdots&\\frac {\\partial f}{\\partial x_{1n}} \\ \\frac {\\partial f}{\\partial x_{21}}&\\frac {\\partial f}{\\partial x_{22}}& \\cdots & \\frac {\\partial f}{\\partial x_{2n}}\\ \\vdots&\\vdots&\\vdots&\\vdots\\ \\frac {\\partial f} {\\partial x_{m1}}&\\frac {\\partial f}{\\partial x_{m2}}&\\cdots&\\frac {\\partial f}{\\partial x_{mn}} \\end {bmatrix}_{m\\times n} \\ (本质篇_11)$$
\n正如本质篇_三._2.5.1 总结的那样,这两个结果互为转置,即:
\n所以,我们把 (31) 式中的分母的矩阵变元写为转置,就有:
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b})}{\\partial{\\pmb{X}}^T} = (\\frac{\\partial( \\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b})}{\\partial{\\pmb{X}}})^T = (\\pmb{a}\\pmb{b}T\\pmb{X}+\\pmb{b}\\pmb{a}T\\pmb{X})^T = \\pmb{X}T\\pmb{b}\\pmb{a}T+\\pmb{X}T\\pmb{a}\\pmb{b}T (35)$$
\n对于 (33) 式,我们将其写为如下形式:
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{X}T\\pmb{X}\\pmb{b})}{\\partial{\\pmb{X}}} =\\frac{\\partial( \\pmb{a}T(\\pmb{X}T)(\\pmb{X}T)T\\pmb{b})}{\\partial{(\\pmb{X}}T)T} (36)$$
\n然后对 (36) 式使用 (35) 式,得:
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{X}T\\pmb{X}\\pmb{b})}{\\partial{\\pmb{X}}} =\\frac{\\partial( \\pmb{a}T(\\pmb{X}T)(\\pmb{X}T)T\\pmb{b})}{\\partial{(\\pmb{X}}T)T} = (\\pmb{X}T)T\\pmb{b}\\pmb{a}T+(\\pmb{X}T)T\\pmb{a}\\pmb{b}T = \\pmb{X}\\pmb{b}\\pmb{a}T+\\pmb{X}\\pmb{a}\\pmb{b}T (37)$$
\n证毕。
本文到这里就结束了,相信大家也和我一样,会觉的后面那几个求导公式,如果按照定义去推导的话,十分的麻烦,而且容易出错。
\n所以, 在下一篇文章中,我们将介绍向量变元的实值标量函数、矩阵变元的实值标量函数进阶的矩阵求导的技巧:矩阵的迹
矩阵求导系列其他文章:
\n对称矩阵的求导,以多元正态分布的极大似然估计为例(矩阵求导 —— 补充篇) - Iterator 的文章 - 知乎
\n矩阵求导公式的数学推导(矩阵求导 —— 进阶篇) - Iterator 的文章 - 知乎
\n矩阵求导的本质与分子布局、分母布局的本质(矩阵求导 —— 本质篇) - Iterator 的文章 - 知乎
\n1、看本文之前请务必按照顺序先看这两篇文章:
\n下文以 \"本质篇\",“基础篇” 指代上面这两篇文章。
\n2、本文介绍向量变元的实值标量函数、矩阵变元的实值标量函数中进阶的矩阵求导的技巧:矩阵的迹
**3、** 本文章和前两篇文章的区别是什么,分别在什么时候使用:
\n答:我们知道,在高等数学中,导数的原始定义其实是在求极限,但我们在实际求导的过程中,不会真正去使用定义去求的,而是使用各种我们已知的比如幂函数、指数函数等的求导公式与乘积法则、复合法则等。矩阵求导也是类似的,我们在实际求导过程中,不会真正使用本质篇与基础篇的定义法去求,而是使用本文中的各种法则去求。
\n4、本文使用的符号与本质篇、基础篇相同。
\n5、看懂本文需要了解本质篇、基础篇所提及的知识,以及了解本科阶段线性代数中行列式、伴随矩阵、逆矩阵的知识 **,以及了解本科阶段高等数学中的微分与全微分的知识,无需任何其他知识。**
\n6、本文前两节 一。矩阵的迹 二。微分与全微分是矩阵求导的前置知识,如果你已经很熟悉了,可以直接跳到 ** 三。矩阵的微分。(** 不过还是建议看一遍,加深印象)
\n**7、** 有一个矩阵求导的网站,大家可以验证自己算的结果是否正确。
\n1、定义
\n$$\\pmb{A}{n \\times n}= \\begin{bmatrix} a{11} & a_{12} & \\cdots & a_{1n} \\ a_{21} & a_{22} & \\cdots & a_{2n} \\ \\vdots & \\vdots & \\ddots & \\vdots \\ a_{n1} & a_{n2} & \\cdots & a_{nn} \\ \\end{bmatrix}_{n \\times n} $$
\n注意:只有方阵才有迹。
\n2、一些性质(很重要,下文需要用到,建议熟记)
\n2.1 标量的迹
\n对于一个标量
2.2 线性法则
\n相加再求迹等于求迹再相加,标量提外面
\n其中,
证明:
\n证毕。
\n2.3 转置
\n转置的迹等于原矩阵的迹
\n证明:
\n因为转置不会改变主对角线的元素,故成立。
\n证毕。
\n2.4 乘积的迹的本质
\n对于两个阶数都是 $m \\times n 的矩阵 \\pmb {A}{m\\times n},\\pmb{B}{m\\times n}$, 其中一个矩阵乘以(左乘右乘都可以)另一个矩阵的转置的迹,本质是 $\\pmb {A}{m\\times n},\\pmb{B}{m\\times n}$ 两个矩阵 对应位置的元素相乘并相加,可以理解为向量的点积在矩阵上的推广,即:
\n证明:
\n$$\\mathbb{tr}(\\pmb{A}\\pmb{B}^T) =\\mathbb{tr}
证毕。
\n2.5 交换律
\n矩阵乘积位置互换,迹不变
\n
\n其中, $\\pmb {A}{m \\times n},\\pmb{B}{n \\times m}$ 。
证明:
\n把 $\\pmb {B}{n \\times m} 看做是 (\\pmb {B}^T){m \\times n}
证毕。
\n2.6 更多矩阵的交换律
\n其中, $\\pmb {A}{m \\times n},\\pmb{B}{n \\times p},\\pmb{C}_{p \\times m}$ 。
\n证明:
\n把两个矩阵的乘积看做一个矩阵,和另外的一个矩阵应用交换律即可。
\n证毕。
\n2.7 熟练使用
\n其中, $\\pmb {A}{m \\times n},\\pmb{B}{m \\times n}$ 。
\n证明:
\n第一个和第二个是交换律,第二个和三个是转置,第三个和第四个是交换律。
\n证毕。
\n我们先来复习一下本科阶段所学的高等数学中的微分与全微分。
\n1、一元函数的微分
\n1.1 普通函数的微分 [2]
\n设
1.2 复合函数的微分 [3]
\n设
乍一看很复杂,其实举个例子就很简单了:
\n设
2、多元函数的全微分
\n2.1 普通函数的全微分 [4]
\n设
2.2 复合函数的全微分
\n设
举个例子:
\n设 $z=\\sin (2x+y2),u=2x+y2 ,则 z$ 的全微分为:
\n$$\\mathbb{d}z=\\mathbb{d}(\\sin u)=\\cos u\\mathbb{d}u=\\cos(2x+y2)\\mathbb{d}(2x+y2) =\\cos(2x+y^2)(2\\mathbb{d}x+2y\\mathbb{d}y) = 2\\cos(2x+y2)\\mathbb{d}x+2y\\cos(2x+y2)\\mathbb{d}y $$
\n3、微分 / 全微分的法则 [5]
\n3.1 常数的微分
\n其中,
3.2 线性法则
\n相加再微分等于微分再相加,常数提外面
\n其中, 一元函数
3.3 乘积法则
\n前微后不微
其中, 一元函数
3.4 商法则
\n(上微下不微 减 上不微下微)除以(下的平方)
\n其中, 一元函数
1、向量变元的实值标量函数 [6]
\n它其实就是多元函数,设其可微,则它的全微分,即 (14) 式:
\n结果是标量,由 (2) 式可知, (17) 式可以写成迹的形式,即:
\n2、矩阵变元的实值标量函数 [7]
\n$$f(\\pmb{X}),\\pmb{X}{m\\times n}=(x{ij})_{i=1,j=1}^{m,n} $$
\n它也是多元函数,设其可微,则它的全微分,仍是 (14) 式:
\n我们从这个结果中发现,它其实就是矩阵 $(\\frac {\\partial f}{\\partial x_{ij}}){i=1,j=1}^{m,n}
$$\\mathbb{d}f(\\pmb{X}) =\\frac{\\partial f}{\\partial x_{11}}\\mathbb{d}x_{11}+\\frac{\\partial f}{\\partial x_{12}}\\mathbb{d}x_{12} + \\cdots+\\frac{\\partial f}{\\partial x_{1n}}\\mathbb{d}x_{1n}+\\frac{\\partial f}{\\partial x_{21}}\\mathbb{d}x_{21}+\\frac{\\partial f}{\\partial x_{22}}\\mathbb{d}x_{22} + \\cdots+\\frac{\\partial f}{\\partial x_{2n}}\\mathbb{d}x_{2n}+\\cdots+\\frac{\\partial f}{\\partial x_{m1}}\\mathbb{d}x_{m1}+\\frac{\\partial f}{\\partial x_{m2}}\\mathbb{d}x_{m2} + \\cdots+\\frac{\\partial f}{\\partial x_{mn}}\\mathbb{d}x_{mn} =\\mathbb{tr}(
3、矩阵变元的实矩阵函数 [8]
\n$$\\pmb{F}(\\pmb{X}),\\pmb{F}{p\\times q}=(f{ij}){i=1,j=1}^{p,q},\\pmb{X}{m \\times n}=(x_{ij})_{i=1,j=1}^{m,n} $$
\n由 ** 本质篇_一._3_3.3 可知,矩阵变元的实矩阵函数,它的每个元素其实就是一个矩阵变元的实值标量函数
我们定义:设
$$\\mathbb{d}\\pmb{F}{p \\times q}(\\pmb{X}) = \\begin{bmatrix} \\mathbb{d}f{11}(\\pmb{X})& \\mathbb{d}f_{12}(\\pmb{X}) & \\cdots & \\mathbb{d}f_{1q}(\\pmb{X}) \\ \\mathbb{d}f_{21}(\\pmb{X})& \\mathbb{d}f_{22}(\\pmb{X}) & \\cdots & \\mathbb{d}f_{2q}(\\pmb{X}) \\ \\vdots&\\vdots&\\vdots&\\vdots \\ \\mathbb{d}f_{p1}(\\pmb{X})& \\mathbb{d}f_{p2}(\\pmb{X}) & \\cdots & \\mathbb{d}f_{pq}(\\pmb{X}) \\end{bmatrix}_{p \\times q} (21)$$
\n3.1 四个法则(很重要,下文需要用到,建议熟记)
\na. 常数矩阵的矩阵微分
\n$$\\mathbb{d}\\pmb{A}{m \\times n} = \\pmb{0}{m \\times n} (22_1)$$
\n其中,
证明:
\n证毕。
\nb. 线性法则
\n相加再微分等于微分再相加,常数提外面
\n其中,
证明:
\n证毕。
\nc. 乘积法则
\n前微后不微 + 前不微后微
\n其中, $\\pmb {F}{p \\times q}(\\pmb{X}),\\pmb{G}{q \\times s}(\\pmb{X})
注意:此时的微分是矩阵,不能交换乘积的左右顺序。
\n证明:
\n结果左边的求和式,就是
证毕。
\n由此,很容易得到更多个乘积的法则:
\n证明:
\n证毕。
\nd. 转置法则
\n转置的矩阵微分等于矩阵微分的转置
\n其中,
证明:
\n$$\\mathbb{d}\\pmb{F}^T_{p \\times q}(\\pmb{X}) = \\mathbb{d}
证毕。
\n3.2 为什么要使用矩阵微分求导
\n$\\pmb{X}{m \\times n}
因此,
$$\\mathbb{d}\\pmb{X}{m \\times n} = \\begin{bmatrix} \\mathbb{d}x{11}& \\mathbb{d}x_{12} & \\cdots & \\mathbb{d}x_{1n} \\ \\mathbb{d}x_{21}& \\mathbb{d}x_{22} & \\cdots & \\mathbb{d}x_{2n} \\ \\vdots&\\vdots&\\vdots&\\vdots \\ \\mathbb{d}x_{m1}& \\mathbb{d}x_{m2} & \\cdots & \\mathbb{d}x_{mn} \\ \\end{bmatrix}_{m \\times n} (23_1)$$
\n向量
于是,我们刚刚讲到的矩阵微分四个法则,对于
我们现在回到矩阵变元的实值标量函数的全微分,即 (20) 式:
\n$$\\mathbb{d}f(\\pmb{X}) =\\frac{\\partial f}{\\partial x_{11}}\\mathbb{d}x_{11}+\\frac{\\partial f}{\\partial x_{12}}\\mathbb{d}x_{12} + \\cdots+\\frac{\\partial f}{\\partial x_{1n}}\\mathbb{d}x_{1n}+\\frac{\\partial f}{\\partial x_{21}}\\mathbb{d}x_{21}+\\frac{\\partial f}{\\partial x_{22}}\\mathbb{d}x_{22} + \\cdots+\\frac{\\partial f}{\\partial x_{2n}}\\mathbb{d}x_{2n}+\\cdots+\\frac{\\partial f}{\\partial x_{m1}}\\mathbb{d}x_{m1}+\\frac{\\partial f}{\\partial x_{m2}}\\mathbb{d}x_{m2} + \\cdots+\\frac{\\partial f}{\\partial x_{mn}}\\mathbb{d}x_{mn} =\\mathbb{tr}\\begin{pmatrix}
观察 (20) 式的结果,发现在
$$\\text{D}{\\pmb{X}}f(\\pmb{X})= \\frac{\\partial f(\\pmb{X})}{\\partial \\pmb{X}^T{m\\times n}} =
而右边的矩阵,其实就是 (23_1) 式:
\n$$\\mathbb{d}\\pmb{X}{m \\times n} = \\begin{bmatrix} \\mathbb{d}x{11}& \\mathbb{d}x_{12} & \\cdots & \\mathbb{d}x_{1n} \\ \\mathbb{d}x_{21}& \\mathbb{d}x_{22} & \\cdots & \\mathbb{d}x_{2n} \\ \\vdots&\\vdots&\\vdots&\\vdots \\ \\mathbb{d}x_{m1}& \\mathbb{d}x_{m2} & \\cdots & \\mathbb{d}x_{mn} \\ \\end{bmatrix}_{m \\times n} (23_1)$$
\n因此,矩阵变元的实值标量函数的 ** 全微分,** 即 (20) 式,可以写成:
\n别忘了我们的目标是什么,其实就是要求
\n
对于向量变元的实值标量函数的全微分,即 (18) 式,同样可以写成:
\n而由本质篇_三._2.5_2.5.2 指出的,当矩阵变元
同时,由 (23_1) 式、 (23_2) 式,当矩阵
所以,矩阵变元或向量变元的实值标量函数的矩阵求导的结果,都可以通过 (24) 式得到:
\n那么,我们该如何写成形如 (24) 式的结果呢,别急,让我们先给出
3.2.1[8] 夹层饼
\n其中, $\\pmb {A}{p \\times m},\\pmb{B}{n \\times q}$ 是常数矩阵。
\n证明:
\n由乘积法则 (22_3_2) 式得:
\n由常数矩阵微分 (22_1) 式得:
\n$$\\mathbb{d}\\pmb{A} =\\pmb{0}{p \\times m},\\mathbb{d}\\pmb{B} =\\pmb{0}{n \\times q} (25_1_b)$$
\n证毕。
\n3.2.2[10] 行列式
\n其中,
证明:
\n首先明确,行列式是一个实值标量函数,故可以使用 (24) 式。
\n我们知道,行列式可以按照一行展开,即一行中每个元素乘以他的代数余子式然后求和 [11]。
\n我们按照元素
因此,行列式对元素
因此,行列式对矩阵求导的结果为:
\n这个结果其实就是伴随矩阵 [12]
又因为伴随矩阵和逆矩阵的关系 [13]:
\n$$\\pmb{X}{-1}=\\frac{\\pmb{X}*}{|\\pmb{X}|} (25_2_d)$$
\n代入 (24) 式得:
\n又因为行列式是标量,由 (3) 式,可以提到迹的外面,得:
\n证毕。
\n3.2.3[10] 逆矩阵
\n$$\\mathbb{d}(\\pmb{X}{-1})=-\\pmb{X}{-1}\\mathbb{d}(\\pmb{X})\\pmb{X}^{-1} (25_3_1)$$
\n其中,
证明:
\n因为
而常数矩阵微分为
$$ \\mathbb{d}(\\pmb{X})\\pmb{X}{-1}+\\pmb{X}\\mathbb{d}(\\pmb{X}{-1}) =\\pmb{0} (25_3_1)$$
\n等式两边左乘
证毕。
\n$$\\mathbb{d}(\\pmb{F}(\\pmb{X}){-1})=-\\pmb{F}(\\pmb{X}){-1}\\mathbb{d}(\\pmb{F}(\\pmb{X}))\\pmb{F}(\\pmb{X})^{-1} (25_3_2)$$
\n3.3 如何使用矩阵微分求导
\n对于实值标量函数
所以有
\n如果实值标量函数本身就是某个矩阵函数
$$\\mathbb{d}(\\mathbb{tr}{\\pmb{F}{p\\times p}(\\pmb{X})}) = \\mathbb{d}(\\sum{i=1}^pf_{ii}(\\pmb{X})) = \\sum_{i=1}^p\\mathbb{d}(f_{ii}(\\pmb{X})) = \\mathbb{tr}(\\mathbb{d}F_{p \\times p}(\\pmb{X})) (27)$$
\n我们以 6 个例子来非常非常详细地说明如何使用矩阵微分求导,例子的结论不需要记忆,会推过程才是最重要的,用的时候推一下就好了。
\n3.3.1 例子 1 (基础篇_31) 式
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b})}{\\partial{\\pmb{X}}} = \\pmb{a}\\pmb{b}T\\pmb{X}+\\pmb{b}\\pmb{a}T\\pmb{X} (28)$$
\n证明:
\n** 第一步:** 写成 (26) 式的形式
\n$$\\mathbb{d}(\\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b})= \\mathbb{tr}(\\mathbb{d}(\\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b}))(29)$$
\n** 第二步:** 使用矩阵微分法则 (22_1) 式~(22_4_1) 式,迹的若干性质 (2) 式~(10) 式,六个基础公式 (25_1_1) 式~(25_3_2) 式,将 (29) 式化简成形如 (24) 式的形式
\n由 (25_1_2) 式得:
\n$$\\mathbb{d}(\\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b}) = \\mathbb{tr}(\\mathbb{d}(\\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b})) = \\mathbb{tr}(\\pmb{a}T\\mathbb{d}(\\pmb{X}\\pmb{X}T)\\pmb{b}) (30)$$
\n由 (22_3_1) 式得:
\n$$\\mathbb{d}(\\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b}) = \\mathbb{tr}(\\pmb{a}T\\mathbb{d}(\\pmb{X}\\pmb{X}T)\\pmb{b}) = \\mathbb{tr}[\\pmb{a}T(\\mathbb{d}(\\pmb{X})\\pmb{X}T+\\pmb{X}\\mathbb{d}\\pmb{X}^T)\\pmb{b}] (31)$$
\n由 (3) 式得:
\n$$\\mathbb{d}(\\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b}) = \\mathbb{tr}[\\pmb{a}T(\\mathbb{d}(\\pmb{X})\\pmb{X}T+\\pmb{X}\\mathbb{d}\\pmb{X}^T)\\pmb{b}] = \\mathbb{tr}(\\pmb{a}T\\mathbb{d}(\\pmb{X})\\pmb{X}T\\pmb{b})+\\mathbb{tr}(\\pmb{a}T\\pmb{X}\\mathbb{d}(\\pmb{X}T)\\pmb{b}) (32)$$
\n由 (22_4_1) 式得:
\n$$\\mathbb{d}(\\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b}) = \\mathbb{tr}(\\pmb{a}T\\mathbb{d}(\\pmb{X})\\pmb{X}T\\pmb{b})+\\mathbb{tr}(\\pmb{a}T\\pmb{X}\\mathbb{d}(\\pmb{X}T)\\pmb{b}) = \\mathbb{tr}(\\pmb{a}T\\mathbb{d}(\\pmb{X})\\pmb{X}T\\pmb{b})+\\mathbb{tr}(\\pmb{a}T\\pmb{X}(\\mathbb{d}\\pmb{X})T\\pmb{b}) (33)$$
\n由 (9) 式, (10) 式得:
\n$$\\mathbb{d}(\\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b}) = \\mathbb{tr}(\\pmb{a}T\\mathbb{d}(\\pmb{X})\\pmb{X}T\\pmb{b})+\\mathbb{tr}(\\pmb{a}T\\pmb{X}(\\mathbb{d}\\pmb{X})T\\pmb{b}) = \\mathbb{tr}(\\pmb{X}T\\pmb{b}\\pmb{a}T\\mathbb{d}\\pmb{X}) + \\mathbb{tr}(\\pmb{b}\\pmb{a}T\\pmb{X}(\\mathbb{d}\\pmb{X})T)= \\mathbb{tr}(\\pmb{X}T\\pmb{b}\\pmb{a}T\\mathbb{d}\\pmb{X}) + \\mathbb{tr}((\\pmb{b}\\pmb{a}T\\pmb{X})T\\mathbb{d}\\pmb{X})= \\mathbb{tr}(\\pmb{X}T\\pmb{b}\\pmb{a}T\\mathbb{d}\\pmb{X}) + \\mathbb{tr}(\\pmb{X}T\\pmb{a}\\pmb{b}T\\mathbb{d}\\pmb{X}) (34)$$
\n由 (3) 式得:
\n$$\\mathbb{d}(\\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b}) = \\mathbb{tr}(\\pmb{X}T\\pmb{b}\\pmb{a}T\\mathbb{d}\\pmb{X}) + \\mathbb{tr}(\\pmb{X}T\\pmb{a}\\pmb{b}T\\mathbb{d}\\pmb{X}) = \\mathbb{tr}((\\pmb{X}T\\pmb{b}\\pmb{a}T+\\pmb{X}T\\pmb{a}\\pmb{b}T)\\mathbb{d}\\pmb{X}) (35)$$
\n第三步:得出结果
\n$$\\frac{\\partial( \\pmb{a}T\\pmb{X}\\pmb{X}T\\pmb{b})}{\\partial{\\pmb{X}^T}} =\\pmb{X}T\\pmb{b}\\pmb{a}T+\\pmb{X}T\\pmb{a}\\pmb{b}T (36)
证毕。
\n3.3.2 例子 2[9]
\n** 第一步:** 写成 (27) 式的形式
\n** 第二步:** 使用矩阵微分法则 (22_1) 式~(22_4_1) 式,迹的若干性质 (2) 式~(10) 式,六个基础公式 (25_1_1) 式~(25_3_2) 式,将 (38) 式化简成形如 (24) 式的形式
\n由 (22_3_1) 式得:
\n$$\\mathbb{d}(\\mathbb{tr}(\\pmb{X}^T\\pmb{X})) =\\mathbb{tr}(\\mathbb{d}(\\pmb{X}^T\\pmb{X})) = \\mathbb{tr}(\\mathbb{d}(\\pmb{X}T)\\pmb{X}+\\pmb{X}T\\mathbb{d}\\pmb{X}) (39)$$
\n由 (3) 式得:
\n$$\\mathbb{d}(\\mathbb{tr}(\\pmb{X}^T\\pmb{X})) = \\mathbb{tr}(\\mathbb{d}(\\pmb{X}T)\\pmb{X}+\\pmb{X}T\\mathbb{d}\\pmb{X}) = \\mathbb{tr}(\\mathbb{d}(\\pmb{X}T)\\pmb{X})+\\mathbb{tr}(\\pmb{X}T\\mathbb{d}\\pmb{X}) $$
\n由 (22_4_1) 式得:
\n$$\\mathbb{d}(\\mathbb{tr}(\\pmb{X}^T\\pmb{X})) = \\mathbb{tr}(\\mathbb{d}(\\pmb{X}T)\\pmb{X})+\\mathbb{tr}(\\pmb{X}T\\mathbb{d}\\pmb{X}) = \\mathbb{tr}((\\mathbb{d}\\pmb{X})T\\pmb{X})+\\mathbb{tr}(\\pmb{X}T\\mathbb{d}\\pmb{X})$$
\n由 (8) 式、 (10) 式得:
\n$$\\mathbb{d}(\\mathbb{tr}(\\pmb{X}^T\\pmb{X})) = \\mathbb{tr}((\\mathbb{d}\\pmb{X})T\\pmb{X})+\\mathbb{tr}(\\pmb{X}T\\mathbb{d}\\pmb{X}) = \\mathbb{tr}(\\pmb{X}(\\mathbb{d}\\pmb{X})T)+\\mathbb{tr}(\\pmb{X}T\\mathbb{d}\\pmb{X}) = \\mathbb{tr}(\\pmb{X}T\\mathbb{d}\\pmb{X})+\\mathbb{tr}(\\pmb{X}T\\mathbb{d}\\pmb{X})= 2 \\mathbb{tr}(\\pmb{X}^T\\mathbb{d}\\pmb{X})$$
\n由 (3) 式得:
\n第三步:得出结果
\n3.3.3 例子 3[14]
\n$$\\frac{\\partial \\log|\\pmb{X}|}{\\partial \\pmb{X}} = (\\pmb{X}{-1})T (41)$$
\n其中,
** 第一步:** 写成 (26) 式的形式
\n** 第二步:** 使用矩阵微分法则 (22_1) 式~(22_4_1) 式,迹的若干性质 (2) 式~(10) 式,六个基础公式 (25_1_1) 式~(25_3_2) 式,将 (42) 式化简成形如 (24) 式的形式
\n我们发现,这是一个复合函数的全微分,
由 (25_2_1) 式得:
\n标量的迹还是标量,由 (2) 式得:
\n第三步:得出结果
\n$$\\frac{\\partial \\log|\\pmb{X}|}{\\partial \\pmb{X}^T} = \\pmb{X}^{-1}\\ \\frac{\\partial \\log|\\pmb{X}|}{\\partial \\pmb{X}} = (\\pmb{X}{-1})T (46)$$
\n3.3.4 例子 4[14]
\n$$\\frac{\\partial |\\pmb{X}^{-1}|}{\\partial \\pmb{X}} =-|\\pmb{X}{-1}|(\\pmb{X}{-1})^T (47)$$
\n其中,
** 第一步:** 写成 (26) 式的形式,由 (25\\_2\\_2) 式得:
\n$$\\mathbb{d} |\\pmb{X}^{-1}| = |\\pmb{X}{-1}|\\mathbb{tr}((\\pmb{X}{-1}){-1}\\mathbb{d}(\\pmb{X}{-1})) = |\\pmb{X}{-1}|\\mathbb{tr}(\\pmb{X}\\mathbb{d}(\\pmb{X}{-1})) (48)$$
\n** 第二步:** 使用矩阵微分法则 (22_1) 式~(22_4_1) 式,迹的若干性质 (2) 式~(10) 式,六个基础公式 (25_1_1) 式~(25_3_2) 式,将 (48) 式化简成形如 (24) 式的形式
\n由 (25_3_1) 式得:
\n$$\\mathbb{d} |\\pmb{X}^{-1}| = |\\pmb{X}{-1}|\\mathbb{tr}(\\pmb{X}\\mathbb{d}(\\pmb{X}{-1})) = |\\pmb{X}{-1}|\\mathbb{tr}(-\\pmb{X}\\pmb{X}{-1}\\mathbb{d}(\\pmb{X})\\pmb{X}^{-1}) = |\\pmb{X}{-1}|\\mathbb{tr}(-\\mathbb{d}(\\pmb{X})\\pmb{X}{-1}) (49)$$
\n由 (3) 式得:
\n$$\\mathbb{d} |\\pmb{X}^{-1}| = |\\pmb{X}{-1}|\\mathbb{tr}(-\\mathbb{d}(\\pmb{X})\\pmb{X}{-1}) = -|\\pmb{X}{-1}|\\mathbb{tr}(\\mathbb{d}(\\pmb{X})\\pmb{X}{-1}) (50)$$
\n由 (8) 式得:
\n$$\\mathbb{d} |\\pmb{X}^{-1}| = -|\\pmb{X}{-1}|\\mathbb{tr}(\\mathbb{d}(\\pmb{X})\\pmb{X}{-1}) = -|\\pmb{X}{-1}|\\mathbb{tr}(\\pmb{X}{-1}\\mathbb{d}\\pmb{X})$$
\n由 (3) 式得:
\n$$\\mathbb{d} |\\pmb{X}^{-1}| = -|\\pmb{X}{-1}|\\mathbb{tr}(\\pmb{X}{-1}\\mathbb{d}\\pmb{X}) = \\mathbb{tr}(-|\\pmb{X}{-1}|\\pmb{X}{-1}\\mathbb{d}(\\pmb{X})) (51)$$
\n第三步:得出结果
\n$$\\frac{\\partial |\\pmb{X}^{-1}|}{\\partial \\pmb{X}^T} =-|\\pmb{X}{-1}|\\pmb{X}{-1} \\ \\frac{\\partial |\\pmb{X}^{-1}|}{\\partial \\pmb{X}} =-|\\pmb{X}{-1}|(\\pmb{X}{-1})^T (52)$$
\n3.3.5 例子 5[15]
\n$$\\frac{\\partial \\mathbb{tr}(\\pmb{X}+\\pmb{A})^{-1}}{\\partial \\pmb{X}} =-((\\pmb{X}+\\pmb{A}){-2})T (53)$$
\n其中, $\\pmb {A}{n \\times n}
** 第一步:** 写成 (27) 式的形式
\n** 第二步:** 使用矩阵微分法则 (22_1) 式~(22_4_1) 式,迹的若干性质 (2) 式~(10) 式,六个基础公式 (25_1_1) 式~(25_3_2) 式,将 (54) 式化简成形如 (24) 式的形式
\n由 (25_3_2) 式得:
\n$$\\mathbb{d} (\\mathbb{tr}(\\pmb{X}+\\pmb{A})^{-1}) = \\mathbb{tr}(\\mathbb{d}(\\pmb{X}+\\pmb{A})^{-1})= \\mathbb{tr}(-(\\pmb{X}+\\pmb{A}){-1}(\\mathbb{d}(\\pmb{X}+\\pmb{A}))(\\pmb{X}+\\pmb{A}){-1}) (55)$$
\n由 (9) 式得:
\n$$\\mathbb{d} (\\mathbb{tr}(\\pmb{X}+\\pmb{A})^{-1}) = \\mathbb{tr}(-(\\pmb{X}+\\pmb{A}){-1}(\\mathbb{d}(\\pmb{X}+\\pmb{A}))(\\pmb{X}+\\pmb{A}){-1}) = \\mathbb{tr}(-(\\pmb{X}+\\pmb{A}){-1}(\\pmb{X}+\\pmb{A}){-1}\\mathbb{d}(\\pmb{X}+\\pmb{A})) = \\mathbb{tr}(-(\\pmb{X}+\\pmb{A})^{-2}\\mathbb{d}(\\pmb{X}+\\pmb{A})) (56)$$
\n由 (22_2) 式得:
\n由 (22_1) 式得:
\n第三步:得出结果
\n$$\\frac{\\partial \\mathbb{tr}(\\pmb{X}+\\pmb{A})^{-1}}{\\partial \\pmb{X}^T} =-(\\pmb{X}+\\pmb{A})^{-2} \\ \\frac{\\partial \\mathbb{tr}(\\pmb{X}+\\pmb{A})^{-1}}{\\partial \\pmb{X}} =-((\\pmb{X}+\\pmb{A}){-2})T (59)$$
\n3.3.6 例子 6[15]
\n$$\\frac{\\partial|\\pmb{X}^3|}{\\partial \\pmb{X}} =\\frac{\\partial|\\pmb{X}|^3}{\\partial \\pmb{X}} =3|\\pmb{X}|3(\\pmb{X}{-1})^T = 3|\\pmb{X}3|(\\pmb{X}{-1})^T (60)$$
\n** 第一步:** 写成 (26) 式的形式
\n我们知道,对于 n 阶矩阵
因此,有
\n所以
\n** 第二步:** 使用矩阵微分法则 (22_1) 式~(22_4_1) 式,迹的若干性质 (2) 式~(10) 式,六个基础公式 (25_1_1) 式~(25_3_2) 式,将 (62) 式化简成形如 (24) 式的形式
\n我们发现,这是一个复合函数的全微分,
由 (25_2_1) 式得:
\n$$\\mathbb{d}(\\mathbb{tr}(|\\pmb{X}|^3)) = \\mathbb{tr}(3|\\pmb{X}|^2\\mathbb{d}|\\pmb{X}|) = \\mathbb{tr}(3|\\pmb{X}|2|\\pmb{X}|\\mathbb{tr}(\\pmb{X}{-1}\\mathbb{d}\\pmb{X}) ) = \\mathbb{tr}(3|\\pmb{X}|3\\mathbb{tr}(\\pmb{X}{-1}\\mathbb{d}\\pmb{X}) ) (64)$$
\n标量的迹还是标量,由 (2) 式得:
\n$$\\mathbb{d}(\\mathbb{tr}(|\\pmb{X}|^3)) = \\mathbb{tr}(3|\\pmb{X}|3\\mathbb{tr}(\\pmb{X}{-1}\\mathbb{d}\\pmb{X}) ) = 3|\\pmb{X}|3\\mathbb{tr}(\\pmb{X}{-1}\\mathbb{d}\\pmb{X})(65)$$
\n由 (3) 式得:
\n$$\\mathbb{d}(\\mathbb{tr}(|\\pmb{X}|^3)) = 3|\\pmb{X}|3\\mathbb{tr}(\\pmb{X}{-1}\\mathbb{d}\\pmb{X})= \\mathbb{tr}(3|\\pmb{X}|3\\pmb{X}{-1}\\mathbb{d}\\pmb{X}) = \\mathbb{tr}(3|\\pmb{X}3|\\pmb{X}{-1}\\mathbb{d}\\pmb{X}) $$
\n第三步:得出结果
\n$$\\frac{\\partial|\\pmb{X}^3|}{\\partial \\pmb{X}^T} =\\frac{\\partial|\\pmb{X}|^3}{\\partial \\pmb{X}^T} =3|\\pmb{X}|3\\pmb{X}{-1} = 3|\\pmb{X}3|\\pmb{X}{-1} \\ \\frac{\\partial|\\pmb{X}^3|}{\\partial \\pmb{X}} =\\frac{\\partial|\\pmb{X}|^3}{\\partial \\pmb{X}} =3|\\pmb{X}|3(\\pmb{X}{-1})^T = 3|\\pmb{X}3|(\\pmb{X}{-1})^T (66)$$
\n本系列到这里就结束了,至此,我们遇到的所有的矩阵变元 / 向量变元的实值标量函数的一阶矩阵求导都可以用本文的方法进行计算。至于高阶求导、矩阵变元的实矩阵函数的求导,我目前还没有遇到,如果将来遇到了,我会考虑再写几篇的。
\n矩阵求导系列其他文章:
\n对称矩阵的求导,以多元正态分布的极大似然估计为例(矩阵求导 —— 补充篇) - Iterator 的文章 - 知乎
\n矩阵求导公式的数学推导(矩阵求导 —— 基础篇) - Iterator 的文章 - 知乎
\n矩阵求导的本质与分子布局、分母布局的本质(矩阵求导 —— 本质篇) - Iterator 的文章 - 知乎
\n